在视觉变压器中,位置嵌入(PE)在捕获令牌顺序方面起着作用。然而,在Vi-Sion变压器结构中,由于将嵌入位置嵌入的结构简单地添加到令牌嵌入中,因此PE的增强性存在限制。通过将PE传递到每一层的PE并应用独立层正常化的令牌嵌入和PE来克服此限制。在本文中,我们确定了使用全球平均池(GAP)方法而不是类令牌时在层的结构中发生的冲突结果。为了克服这个问题,我们提出了MPVG,这可以最大程度地利用差距在层结构中PE的有效性。具体来说,我们确定了PE平衡令牌在每层结构中的嵌入值。此外,我们认识到PE的平衡作用在层结构上不足,我们通过通过MPVG最大化PE的有效性来解决这一问题。通过实验,我们将表现出PE扮演平衡的角色,并且具有这种平衡方向性的主导性会显着影响视觉变压器。结果,实验性的研究表明,MPVG在各种任务上跨越视觉变压器的现有方法。
![arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第1页](/bimg/d/d5b1a984f36dafed9f621a423678e5de5fd466a3.webp)
![arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第2页](/bimg/f/f1bffd490dd271b5d1b6f1e92c2bf92c70f77e17.webp)
![arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第3页](/bimg/7/7d6231c6aa16799c308e8fed0b1994a4aa209cad.webp)
![arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第4页](/bimg/f/fb8f9978bf3e4d50c3c78a6f337794ac35be1131.webp)
![arxiv:2502.02919v1 [cs.cv] 2025年2月5日PDF文件第5页](/bimg/f/f1c6fc7e96ae604260bac05952acfe9014ac78c4.webp)
